丨目录:
1.背景
2.业务问题
3.业界解决方案
4.技术方案
5.应用示例
6.业务收益
7.总结
1. 背景
随着业务朝向精细化经营增长,阿里妈妈商家端营销产品更加聚焦客户投放体验,旨在帮助商家提升经营效果,在变化的市场中找到确定增长。近年来,商家端算法业务使用的数据是离线T+1甚至T+7更新,为进一步捕捉用户意图,更全面实时的挖掘潜在需求,利用实时行为及投放效果帮助广告主在成效预估、货品工具推荐等业务有更好效果,阿里妈妈数据引擎团队从21年开始在数据实时化开发方面进行探索尝试,从实时角度助力商家端算法第二增长曲线。 货品工具推荐场景 2. 业务问题 与用户端(C端)相比,商家端(B端)算法业务更具多样性,但对实时数据的使用还处于启蒙阶段。目前面向C端的实时开发服务已经很成熟,但开放的能力比较基础,且这些能力主要面向工程同学,但在实际B端场景中,因算法工程支持资源有限,而算法同学自己直接开发实时作业成本较高,不仅需要学习了解上游实时数据源订阅信息,还需要了解不同存储引擎选型等工程技术支持,例如Igraph(阿里集团内部KV存储引擎)、Lindorm(阿里云多模存储引擎)和Hologres(阿里云HTAP存储引擎)等,所以 需要有一个更算法友好的开发平台,实现让非工程同学也能轻松开发实时作业 。 那么,对于算法同学什么开发方式最简单?因为算法同学对SQL非常熟悉,每天大量工作都在Dataworks(Dataworks是阿里集团大数据开发平台)完成,所以能让实时作业SQL化开发是平台确定方向。目前Flink已经可以提供SQL化开发,但仅提供基础实时计算开发能力,存储方面需要自己选择,对于非工程技术人员仍有较高的学习成本,故期望如下能力: 屏蔽底层细节的SQL化开发 ,不仅开发SQL化,还可以帮助用户屏蔽底层存储和上层数据源配置 信息,降低学习及开发成本;统一的数据中心 ,从实时开发的数据获取、开发调试及上线End2End一体化 ,提升开发效能。3. 业界解决方案 如何更高效开发实时作业,业界有很多尝试和探索。
3.1 集团内部解决方案 在集团内部,经常使用的实时化产品有AMC特征中心和蚂蚁特征服务平台等,它们体系化建设完善且功能全面,但大多是工程同学使用,有一定开发使用成本。 3.1.1 AMC特征中心 AMC是特征样本平台,解决主搜场景算法同学特征迭代遇到的问题,提供复杂特征开发和统一特征管理问题。 在复杂特征开发方面提供TableApi,支持算法自助开发复杂特征,该方案灵活性比较高,但是从算法开发体验和debug角度看,成本仍然较高。 3.1.2 蚂蚁特征服务平台 蚂蚁提供全平台统一的特征服务平台,提供特征管理、服务、分析和计算等能力。 为了简化计算流程,平台提出特征SQL语法 ,该语法使用类似SQL,但区别较大,对新开发同学学习成本不低,因为新语法有很多非通用概念。 3.2 外界解决方案 调研发现外界有很多类似的设计,主要有老牌云厂商Cloudera的SSB和新兴公司RisingWave。 3.2.1 Cloudera Stream Builder Cloudera在实时开发方面有成熟商业化实践,Stream Builder整体上是基于Flink和Database封装形成实时开发平台,使用SQL进行开发,数据经过Flink处理写入database,从Database读取数据,架构图如下。 上图为用户开发页面,所有的数据源和存储库都抽象出来,配置一次即可,无需每个job都配置一次,此外该平台还提供sample能力支持数据preview,大幅提升数据开发效率。 3.2.2 RisingWave RisingWare在2021年底开源,主打实时数据库,不仅包括实时计算能力,还有自己的存储,提供PG SQL语法,用户可以像使用传统数据库一样开发实时作业,整个流程就像操作传统数据库,所写即所得 。 它和我们系统设计的目标非常一致,提供通用的SQL语法,且使用方面不用过多考虑数据来源和存储选择,学习成本、开发、调试及上线都一体化,是用户体验和开发成本更优的方案,但RisingWave还在dev阶段。 4. 技术方案 当前集团提供的实时开发方案多面向工程技术同学,具有相对灵活的控制能力,可解决超大规模复杂场景;但在广告商家端场景,面对百万规模的用户实时行为,业务更看重开发迭代效率 ,期望把复杂工程细节屏蔽,节省人力成本提升迭代效率。 Dolphin引擎 是阿里妈妈数据引擎团队自2018年底研发的超融合一体化计算引擎,在面向商家端营销产品场景下经过多年发展,已经从最初的OLAP计算延伸到AI计算、实时计算和批量计算,让业务迭代效能达到较高水位。引擎基于在SQL领域的基础能力,在2021年中研发出Streaming框架能力,填补实时计算能力空白,解决实时计算高开发及维护成本问题,下图是Dolphin Streaming在整体B端工程解决方案的定位,主要是基于计算存储引擎以及SQL引擎能力构建。 4.1 设计思路 Dolphin Streaming设计目标是像开发数据库一样开发实时作业 (DB for Streaming) ,让算法等非工程用户也可以轻松开发实时作业,具体包括: 极简SQL语法: 屏蔽有理解成本的实时开发术语,如TUMBLE、HOP等;
底层技术无感知: 为算法用户及其他非工程用户提供一套开发平台,无需过多感知上下游数据源和存储;
流程一体化: 打通从实时数据开发、迭代到上线读取全流程。
该设计跟Cloudera、Risingwave有很多相似,但也有区别:
不仅关注实时开发平台,还关注用户对实时数据获取 、开发及高效复用;
设计简化SQL语法 ,屏蔽TUMBLE、HOP等概念;
不仅关注数据开发产出,还关注用户开发后直接上线数据流程 。
4.2 架构图 我们开发了从数据、计算引擎到上线一体化方案,端到端高效实现数据开发、存储、debug查询及上线整个流程。 4.3 数据层 目前阿里妈妈广告商家端数据散落在各个团队,我们期望面向商家端场景搭建数据中心 ,让离线和实时数据被更好的管理、复用。具体设计如下: 将实时行为标准化 ,沉淀实时、离线特征基础设施,提升数据复用,减少重复存储和开发。 建立实时数据地图 ,降低实时数据查找、管理及维护成本。 建立商家端数据中心,并跟极光开发平台结合,形成集团公共层、妈妈商家端中间层到业务应用层三层数据体系。 此外,我们还建立了面向商家端算法实时开发的协作模式: 数据同学负责将集团公众层非结构化数据ETL为结构化的实时数据中间层; 算法等非工程同学自主使用Dolphin SQL将上游中间层实时数据进一步开发聚合为所需要的特征数据; 数据同学开发的中间层数据进入商家数据中心,数据一方面可被直接被查询,另一方面可以给算法同学开发特征使用,开发的特征会进入商家特征中心,从而形成数据闭环和复用,如下图所示。 4.3 Dolphin引擎 Dolphin Streaming在实现方面基于Flink实现,使用OpenAPI实现对Flink job的创建、资源配置和启停;在存储方面使用GP、Hologres和igraph,该方案既利用现有引擎支撑大规模场景的成熟能力,又让使用体验像数据库一样简单。下图是Flink、RisingWave和Dolphin Streaming的架构特点: 这里主要对比Dolphin Streaming跟Flink的区别: Flink定位实时计算引擎,没有自己的存储,用户在使用必须定义外部存储 Dolphin Streaming屏蔽计算和存储引擎, 计算引擎使用Flink,存储使用不同引擎 用户无需感知Flink SQL语法,只需要使用更简单,更接近SQL标准的Dolphin SQL Dolphin Streaming提供数据库SQL操作方法,使用Flink成熟大规模计算能力,屏蔽存储,让实时数据开发和查询一体化,是结合用户使用体验和性能的不二之选 。 4.3.1 SQL转译 Dolphin streaming提供一套面向算法用户友好的SQL语法,屏蔽数据源信息、中间结果处理、输出信息,让算法用户开发实时特征就像在Dataworks上开发离线计算作业一样简单。 (1)实时作业开发 新作业的整体开发流程分为定义输入源、定义输出源和定义计算逻辑三个部分,定义数据源只需要执行一次全局可用,无需每个作业都重复定义。为了屏蔽底层复杂的实时计算语义理解问题,我们设计更简化的UDF,让开发更简单,例如: window_row(amount),窗口函数,按时间排序取最近amount条行为。 window_time(timecloum,timeunit) 按照单位时间进行指标序列聚合 (2)实时数据查询 传统方案特征查询都是使用存储引擎对应的client来查询,不同引擎查询方法都不一致,这里我们使用Dolphin SQL屏蔽底层查询引擎,使用统一的SQL语法查询,不仅降低开发成本,还让特征debug调试更简单,调试完的SQL可以直接在线上使用。 很多场景都存在实时特征和离线特征一起作为请求入参,一般都是分别查询实时和离线特征再拼接,为提升效率,Dolphin SQL支持在SQL查询就可以让实时特征和离线特征join实现参数拼接,极大提升开发效率。 SELECT a.id, a.action_list, b.city, b.level FROM realtime_feature_table a JOIN offline_feature_table b ON a.id = b.id
4.3.2 作业调度 Dolphin Streaming通过openApi进行作业进行调度运维,包括: 4.3.4 Debug功能 传统使用Flink debug都是写一个job打印数据记录,需要写一个完整的job,效率较低。为了让用户debug更简单支持用户使用select语句探查实时数据源表,进行快速ETL开发,无需提前定义 上游源数据,相较Flink非常高效。 5. 应用示例 作为整体端到端方案,我们实现极光开发平台打通Dolphin Streaming能力,可以直接在极光开发平台(极光是阿里妈妈商家端数据开发平台)进行数据管理、实时作业开发、debug调试及运维管理,让实时数据问题在这里一站式解决。 5.1 数据开发 用户直接基于上游中间层实时数据进行开发,定义好输入输出源,然后定义计算逻辑即可,上游TT的subId,accessId,accessKey信息都在SQL转译阶段生成,用户无感知,下游存储表信息也都是自动创建和生成。 5.2 特征数据查询 开发好特征数据之后可以直接查询实时结果,验证计算逻辑,如果没问题该查询SQL可以在线上直接查询Dolphin使用。 5.3 数据探查 当上游TT表已经提前注册好,直接像数据库一样select查询表就可以实时获取探查结果,在数据debug,数据探查方面非常实用高效。 6. 业务收益 Dolphin Streaming支撑商家端算法实时特征开发,包括阿里妈妈直通车、引力魔方成效预估及如意货品推荐等场景,已取得显著收益。 支持客增如意货品推荐服务顺利经历本次双十一 大促考验,通过对客户行为序列的精细化兴趣建模,应用到5+场景,实现拉新、活跃和新建计划客户数增长显著,整体实时特征在线查询QPS达到6000+,实现Dolphin引擎查询业务量翻倍增长。 通过引入实时广告效果数据,支持万相台MCB、千牛小程序及直通车智能计划等3+场景成效预估,其中万相台MCB带来cost及ARPU值显著提升。 7. 总结 在大规模实时场景,数据开发需要专业的工程技术同学支持,优势是可以达到极致性能;但在大多数普通规模实时场景中,如何简单高效的开发、迭代、测试和上线是业务方更关注的因素。 通过Dolphin Streaming提供面向算法等非工程同学的实时开发DB for Streaming 解决方案,实现从数据获取、特征开发到特征上线整个流程一体化 完成,在广告商家端算法场景不仅节省了算法到工程之间的沟通时间,还降低了开发人力成本,让业务迭代效率更高,实现规模化提升实时研发效能。 用户使用越简单,关心的内容越少,越是需要背后大量的用户理解和研发工作 ,未来我们会继续以用户体验和研发效能为中心 ,用技术提升商家经营增长。
附阿里妈妈工程平台智能分析引擎团队系列文章,欢迎阅读交流~
🏷 阿里妈妈Dolphin分布式向量召回技术详解
🏷 FAE:阿里妈妈归因分析与用户增长分析引擎
🏷 面向数智营销的 AI FAAS 解决方案